요인 분석 (문단 편집)

== 설명 ==
||<tablebordercolor=#ff0000>{{{#ff0000 ※}}} 이하의 내용들은 복잡한 수학적 증명이나 [[행렬]]식 같은 것들의 소개는 최대한 피하면서, 유관분야 [[석사]]생 수준에서 분석 논리를 수립할 때 실제로 이해가 필요한 정보들 위주로 구성하였다. 그와 동시에, [[사회과학]] 분야의 학부생 정도에서도 큰 흐름에서는 따라갈 수 있도록 하였다. [[통계학]] 전공자들이 있다면 구체적인 행렬식의 추가는 가급적 자제하되, 정 필요하다면 별도의 세분된 개별 문서를 개설하는 쪽을 부탁드린다.||

국내에는 미번역된 《Exploratory Factor Analysis》 라는 교과서에 따르면,[* Fabrigar, L. R., & Wegener, D. T. (2012). Exploratory factor analysis. Oxford University Press.] '''요인분석의 기본 전제'''(basic assumptions)는 다음과 같다.

1. '''인과성'''(causality)
 요인분석에서는 모든 '공통요인' 이 지표변인(indicator)[* 앞의 예시에서 '문항' 이라고 불렀던 하나하나를 이제부터는 지표변인이라고 부르기로 하겠다. [[심리학]]의 경우 실제로 지표변인이 대개 [[질문지법|설문지]] 문항이 되는 경우가 많지만, 당장 [[교육학]]의 경우만 봐도 각 지표변인은 국/영/수/사/과 같은 과목명이 되는 경우가 많다.]의 원인이 되는 '''인과적 관계'''가 성립한다. 본 문서의 맨 위로 올라가서 요인분석을 묘사한 그림자료를 보자. 타원형으로 표시된 공통요인, 사각형으로 표시된 지표변인 사이에서 [[화살표]]가 어디로 향하고 있는지 살펴보자. 타원형과 사각형을 연결하는 '''모든 화살표는 타원형에서 사각형으로 향하고 있음'''을 알 수 있다. 즉, 요인분석은 각 지표변인들의 배후에 있는 원인(cause)으로서 요인을 지목한다. 이것은 아래 CFA에서 설명하게 될 '반영지표모형' 의 논리와도 상통한다.
 1. '''선형성'''(linearity)
 위에서 전제했던 공통요인과 지표변인 사이의 인과성에는 '''선형적 관계'''가 성립한다. 즉, 인과성의 크기가 갑자기 커지거나 갑자기 작아지거나, 거꾸로 뒤바뀌거나 하는 경우는 없다고 상정한다. 이게 왜 중요한가 싶을 수도 있지만, 바로 이 전제 때문에 분석에 동원되는 모든 지표변인들은 [[측정]] 수준(measurement level)에 있어서 '''등간 또는 비율 수준의 측정'''이어야 한다는 전제가 새로 발생하고, 공통요인들 사이의 상호작용(interaction) 효과 또한 0이라고 상정된다. 흔히 "요인분석에 [[성별]]이나 [[종교]]유무 여부를 묻지 말라" 는 충고가 있는데, 따지고 올라가면 "그렇다 vs. 아니다" 류의 명목적인 질문 문항들은 선형성 가정을 위반하기 때문이다.
 단, 이런 한계점이 있다는 것은 뒤집어 말하면 방법론 연구자들이나 통계학자들에게는 좋은 연구거리가 된다는 말인지라, 먹이를 노리는 [[매의 눈]]으로 요인분석을 주시하는 수많은 학자들이 '''비선형적 요인분석'''(nonlinear factor analysis)을 만들기 위해 지금 이 순간에도 실시간으로 [[공밀레|갈려나가고 있다]].[* Wall, M. M., & Amemiya, Y. (2007). A review of nonlinear factor analysis and nonlinear structural equation modeling. In Cudeck, R., & MacCallum, R. C. (Eds.), Factor analysis at 100: Historical developments and future directions (pp. 337-362). Routledge.] 새로운 방법론이 개발된다면 그때에는 기본 전제에 있어서 지금보다 더 자유로워질 것으로 보인다.
 1. '''다변량 정규성'''(multivariate normality)
 항상 전제되는 것은 아니고, 특정 방법으로 '''모형적합도 검정'''을 할 때에만 유효하다고 상정되는 전제다. 이것은 모든 지표변인들이 '''다변량 정규분포'''를 따를 것이라는 진술이다. 이 전제가 깨어지게 되는 특수한 경우가 있는데, 하술하게 될 '최대우도법' 이라는 방법을 사용해야 할 때에 데이터 세트의 절대적 왜도(skewness) 값이 2 이상이면서 그와 동시에 절대적 첨도(kurtosis) 값이 7 이상인 경우이다. 이런 상황에서 '최대우도법' 을 써서 모형적합도를 따질 경우, 그 결과물에 대해서 이의제기가 나올 수 있음을 예상하라는 얘기.
 1. '''완전 선형 의존성'''(perfect linear dependency)'''의 부재'''
 이 역시 '''모형적합도 검정'''을 할 때에만 추가로 따라붙는 기본 전제이다. 이것은 모든 지표변인들이 '''서로 간에 완전선형함수의 관계를 갖지 않는다'''고 진술한다. 복잡해 보이지만 간단히 말하면, 다른 지표변인들의 합계나 [[평균]]을 계산한 결과가 지표변인들 사이에 끼어들어 있으면 분석을 재고해야 한다는 얘기다. 예컨대, 지표변인 5번이 지표변인 1번~4번의 값을 평균한 것이라면, 원칙적으로 모형적합도를 따져볼 수 없다.

요인분석에 대해 설명하기 위해서는 먼저 '''요인이라는 개념'''에 대해서부터 설명하고 넘어가야 할 것이다. 요인을 엄밀하게 [[정의]]하자면 '''이론화 과정에서 가설'''(假設)'''할 것이 요구되는 개념적 구성'''(construct)으로 요약될 수 있다. 즉 '사변적인 설명을 위해서 인위적으로 만들어놓아야 하는 어떤 응집된 개념' 이라는 것이며, 이미 여기서 요인이라는 개념은 숫자의 세계를 벗어나게 된다. 그래서 수학자들과 통계학자들은 요인이라는 '주관적' 인 단어를 좋아하지 않으며, 그저 '''잠재변인'''(latent variable) 내지는 '''관측되지 않은 변인'''(unobserved variable)이라고만 이름붙이고는 별다른 관심을 주지 않는다.

||'''요인''' = '''공통요인''' + '''고유요인'''||

요인분석에서 모든 요인들은 둘로 나누어지는데, 먼저 (위에서 잠깐 언급했던) '''공통요인'''(common factor)이 그 하나요, 그리고 '''고유요인'''(unique factor)이 다른 하나이다. 다시 이 문서 맨 위의 그림으로 돌아가 보자. 그 그림에서 상단에 '[[에타]]' 가 붙은 타원형이 바로 공통요인이며, 하단에 '[[엡실론]]' 이 붙은 원형이 바로 고유요인이 된다. 은근히 중요한 것인데, 요인분석의 통계적인 특징 중 하나가 바로 이 '''고유요인의 존재를 끊임없이 인식하면서 분석에 반영한다'''는 데 있다. 요인분석을 하는 초보 연구자가 고유요인의 존재를 무시하다시피 하면서 공통요인만 가지고 분석결과를 해석했다가는 방법론 연구자들의 거센 반발을 부르기 십상이다.

공통요인들과 고유요인들은 각 지표변인들에 저마다 영향을 끼친다. 어떤 요인이 지표변인에 끼치는 영향의 크기, 좀 더 정확히 말하자면 '''그 요인이 지표변인에 끼치는 공분산의 크기'''를 나타내는 개념이 바로 '''요인적재량'''(factor loading)이다. 이 개념은 [[일본]] 학계에서는 부하량(負荷量)으로 번역하고 있으며 국내에서도 그 영향인지 다양한 분야들에서 부하량이라고들 하지만, [[SPSS]] 한글 번역판에서 표기하듯이 '적재량' 으로 번역하는 편이 조금 더 정확할 것으로 보인다. 이 개념은 '[[람다]]' 기호를 사용해서 나타낼 수 있다.

요인적재량은 해당 지표변인과 요인 사이의 [[상관관계]]를 －1 ~ ＋1 사이의 값으로 표시한다. 확고한 기준은 없지만, 그 값이 보통 '''±0.5 이상일 때''' 유의하다고 하는데, 표본이 작고 지표변인의 수도 적다면 허들을 높일 필요가 있다고 알려져 있다. 요인적재량을 제곱하면 총분산 중 그 요인을 통해 설명되는 분산의 비율을 얻을 수 있다. 또 요인적재량이 양수 값이라면 지표변인이 단위별로 증가할 때 공통요인도 증가하는 관계가 존재하는 선형적 관계가 존재한다고 해석할 수 있다. 이런 면모들로 보자면 요인적재량은 피어슨 상관계수 개념과도 유사한 점이 있다.

요인적재량과 비슷한 개념으로 '''[[고유치 문제|고유값]]'''(eigenvalue)이라는 게 있다. 이는 각 요인이 담당하는 분산의 양을 표현하는 값이다. 즉 '''고유값이 클수록 그 요인은 중요성을 갖는 요인'''이라는 뜻이 되며, 위의 예시에서 한번 보았던 '스크리도표' 의 세로축이 바로 이 고유값을 가리키는 것이다. 고유값이 큰 요인은 스크리도표의 왼쪽에 놓이게 되며, 대개 연구자의 관심을 끌게 된다. 이처럼, 고유값의 크기는 논리적으로 그 요인모형에서 해석의 대상으로 삼을 요인의 수를 결정하는 데 결정적인 영향을 끼친다.

또 다른 비슷한 개념으로 '''공통성'''(commonality)이 있다. 이것은 '''어떤 지표변인의 총분산 중에서 이 공통요인들에 의해 설명될 수 있는 분산'''이며, 표현을 바꾸자면 주어진 지표변인들로부터의 공통요인에 대한 요인적재량의 제곱합이라고도 할 수 있다. 말이야 어렵지만 '제곱' 합이라는 점에서 '''[[회귀분석]]에 나오는 r^^2^^ 개념과도 유사하다.''' 공통성 역시 0에서 1 사이의 값을 갖는데, 1에서 공통성을 뺀 값은 고유요인으로 설명해야 할 오차분산으로 취급한다. 공통성이 0.5 이상으로 높은 지표변인은 요인모형을 구성하는 데 큰 역할을 하며, 연구자가 분석 과정에서 의미부여를 할 때에도 공통성 높은 지표변인을 크게 참고하게 된다.

고유값이 전체 요인모형에서 '특정 요인 자체가 갖는 중요성' 을 나타낸다면, 공통성은 '특정 지표변인에서 전체 공통요인이 갖는 설명적 중요성', 요인적재량은 '특정 지표변인에서 특정 공통요인이 갖는 중요성' 이라고도 할 수 있겠다. (요인적재량의 경우 '요인모형에서 [[화살표]] 하나하나가 갖게 되는 중요성', 공통성의 경우 '특정 지표변인으로 꽂히는 모든 화살표들의 중요성' 이라고 볼 수도 있을 것이다.) 정 모르겠다면 교수님이나 연구원 분들께 여쭤보자.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

요인 분석 (문단 편집)

캡챠